<div><br><div class="gmail_quote"><div>On Tue, Jan 31, 2017 at 10:28 AM Giles Orr via talk <<a href="mailto:talk@gtalug.org">talk@gtalug.org</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">On 31 January 2017 at 10:03, Alvin Starr via talk <<a href="mailto:talk@gtalug.org" class="gmail_msg" target="_blank">talk@gtalug.org</a>> wrote:<br class="gmail_msg">
> On 01/31/2017 09:07 AM, Giles Orr via talk wrote:<br class="gmail_msg">
>> My primary machine is crashing with increasing frequency.  The<br class="gmail_msg">
>> commonest error I'm seeing in the log looks like this:<br class="gmail_msg">
>><br class="gmail_msg">
>> Jan 29 18:29:39 toshi7 kernel: nouveau 0000:01:00.0: DRM: suspending<br class="gmail_msg">
>> kernel object tree...<br class="gmail_msg">
>> Jan 29 18:30:00 toshi7 kernel: NMI watchdog: BUG: soft lockup - CPU#3<br class="gmail_msg">
>> stuck for 23s! [kscreenlocker_g:19647]<br class="gmail_msg">
>> Jan 29 18:30:00 toshi7 kernel: Modules linked in: fuse uas usb_storage<br class="gmail_msg">
>> rfcomm ip6t_rpfilter ip6t_REJECT nf_reject_ipv6 xt_conntrack ip_set<br class="gmail_msg">
>> nfnetlink ebtable_broute bridge stp llc ebtable_nat ip6table_nat<br class="gmail_msg">
>> nf_conntrack ...<br class="gmail_msg">
>><br class="gmail_msg">
>> I realize that I'm probably not giving enough information, but pasting<br class="gmail_msg">
>> large chunks of log files would be just as counterproductive in its<br class="gmail_msg">
>> own way.  I've seen this one A LOT - and sometimes I get it and the<br class="gmail_msg">
>> machine goes hours (but not days) before crashing.  So ... is<br class="gmail_msg">
>> kscreenlocker likely to be the problem here?  When I searched for "BUG<br class="gmail_msg">
>> soft lockup CPU stuck for" on Google, the top result had exactly the<br class="gmail_msg">
>> same number of seconds, and said that replacing the power supply fixed<br class="gmail_msg">
>> the problem.  Which is a step I'd probably be willing to take, but<br class="gmail_msg">
>> this isn't a desktop, it's a laptop.  So I'd want to be very sure as<br class="gmail_msg">
>> the power supply is unique to this machine (if it's available at all)<br class="gmail_msg">
>> and probably quite expensive.<br class="gmail_msg">
>><br class="gmail_msg">
>> The processor:<br class="gmail_msg">
>><br class="gmail_msg">
>> Intel(R) Core(TM) i7-3610QM CPU @ 2.30GHz (4594 bogomips)<br class="gmail_msg">
>> current speed: 1274MHz, 4 cores, 8 threads<br class="gmail_msg">
>><br class="gmail_msg">
>> While it's not a current gen processor, this is still a good machine<br class="gmail_msg">
>> and I'd rather fix it than toss it.<br class="gmail_msg">
>><br class="gmail_msg">
>> Got an immediate crash this morning, and to my surprise the error was<br class="gmail_msg">
>> very different:<br class="gmail_msg">
>><br class="gmail_msg">
>> Jan 31 07:56:35 toshi7 kernel: ------------[ cut here ]------------<br class="gmail_msg">
>> Jan 31 07:56:35 toshi7 kernel: kernel BUG at lib/radix-tree.c:769!<br class="gmail_msg">
>> Jan 31 07:56:35 toshi7 kernel: invalid opcode: 0000 [#1] SMP<br class="gmail_msg">
>> Jan 31 07:56:35 toshi7 kernel: Modules linked in: uas usb_storage<br class="gmail_msg">
>> rfcomm ip6t_rpfilter ip6t_REJECT nf_reject<br class="gmail_msg">
>> _ipv6 xt_conntrack ip_set nfnetlink ebtable_nat ebtable_broute bridge<br class="gmail_msg">
>> stp llc ip6table_nat nf_conntrack_ipv6 ...<br class="gmail_msg">
>><br class="gmail_msg">
>> Finally, I'm also getting this periodically:<br class="gmail_msg">
>><br class="gmail_msg">
>> Jan 28 08:49:52 toshi7 kernel: CPU2: Core temperature above threshold,<br class="gmail_msg">
>> cpu clock throttled (total events = 1<br class="gmail_msg">
>> )<br class="gmail_msg">
>> Jan 28 08:49:52 toshi7 kernel: CPU6: Core temperature above threshold,<br class="gmail_msg">
>> cpu clock throttled (total events = 1)<br class="gmail_msg">
> [snip]<br class="gmail_msg">
>> Jan 28 08:49:52 toshi7 kernel: CPU0: Package temperature/speed normal<br class="gmail_msg">
>> Jan 28 08:49:52 toshi7 kernel: CPU2: Package temperature/speed normal<br class="gmail_msg">
>> Jan 28 08:49:52 toshi7 kernel: CPU6: Package temperature/speed normal<br class="gmail_msg">
>><br class="gmail_msg">
>> This suggests that it's overheating, throttling, and recovering pretty<br class="gmail_msg">
>> much instantaneously: my thought is that it's probably not a problem,<br class="gmail_msg">
>> but I thought I should check.<br class="gmail_msg">
>><br class="gmail_msg">
>> How should I proceed from here:<br class="gmail_msg">
>> - the processor is going funny, replace it<br class="gmail_msg">
>> - junk the laptop, it's toast<br class="gmail_msg">
>> - debug further (how?)<br class="gmail_msg">
>> - replace the power supply<br class="gmail_msg">
>> - uninstall kscreenlocker and see what happens<br class="gmail_msg">
>><br class="gmail_msg">
><br class="gmail_msg">
> If the CPU is going over temp then it could start acting unpredictably.<br class="gmail_msg">
><br class="gmail_msg">
> If you have lm_sensors installed then it would be worthwhile checking<br class="gmail_msg">
> the temp of the CPU during normal operation.<br class="gmail_msg">
> I would also check the fans because most fans out there are<br class="gmail_msg">
> "inexpensive" and will start to cease up over time slowing down till<br class="gmail_msg">
> things start getting hot.<br class="gmail_msg">
> Another thing that has bitten me in the past was pushing a computer with<br class="gmail_msg">
> a side vent up against a wall causing the still good fans from working<br class="gmail_msg">
> almost at all.<br class="gmail_msg">
><br class="gmail_msg">
> Another thing that will cause random problems is memory so if the<br class="gmail_msg">
> cooling is not the issue then try running a memory test.<br class="gmail_msg">
> Unless you have ECC and there are no errors being logged.<br class="gmail_msg">
<br class="gmail_msg">
I should add that I ran memtest86(+?) for a couple hours a month ago,<br class="gmail_msg">
and it came up error-free.  And I ran the smartctl long test on the<br class="gmail_msg">
hard drive quite recently, again without error.  I should run the<br class="gmail_msg">
memory test again (and possibly even the HD one), but it makes me<br class="gmail_msg">
think that these aren't the problem.  I think the fans are functioning<br class="gmail_msg">
okay, but that's worth looking at and I'll get lmsensors installed<br class="gmail_msg">
again.<br class="gmail_msg">
</blockquote><div><br></div><div>Hi,</div><div><br></div><div>A good starting point would be knowing what you are running. Also updating to the latest packages for you distro as it might already be fixed.</div><div><br></div><div>Dhaval</div></div></div>